检索结果

Select

1. 基于互联网和self-training的中文问答模式学习

李志圣孙越恒何丕廉候越先

计算机应用

摘要（1768）

PDF （585KB）（919）

在已有的问答模式学习中，模式定义和候选答案评分偏于简单，而且学习过程依赖于人工标定语料。通过挖掘Web文本中动、名词序列的骨架模式，用以扩充模式定义；将self-training学习机制引入问答模式学习：用一对训练语料进行初始学习，通过互联网搜索，自动选择可靠程度较高的问答对，重新训练；扩充了启发规则，改进候选答案的评分方法。实验结果表明：所提出的问答模式学习方法能有效地提高中文问答系统的性能。

相关文章 | 多维度评价

Select

2. 非线性维数约减算法在文档聚类中的应用

孙越恒侯越先何丕廉

计算机应用

摘要（1620）

PDF （510KB）（959）

提出一种非线性维数约减算法——自组织等距嵌入实现高维文档数据的压缩，并在文档聚类实验中，与经典的线性维数约减算法—隐含语义索引进行了比较研究。实验结果表明，在复杂度显著低于LSI算法的同时，SIE算法取得了优于LSI算法的性能，且高于基准性能。

相关文章 | 多维度评价

Select

3. 基于k-means和半监督机制的单类中心学习算法

李志圣孙越恒何丕廉侯越先

计算机应用

摘要（1673）

PDF （701KB）（1142）

提出了一个基于kmeans算法框架和半监督机制的singlemeans算法，以解决单类中心学习问题。kmeans算法实质上是对一种混合高斯模型的期望最大化（EM）算法的近似，对该模型随机生成的多类混合数据集，从目标类中随机标定的初始中心出发，能确定地收敛到该类的实际中心。将singlemeans算法应用到对单类文本中心学习问题中，实验结果表明：在给定目标类中的小标定文本集后，新算法能够有效地改进类的初始中心，且对数据稀疏和方差较大的实际问题具有健壮性。

相关文章 | 多维度评价

Select

4. 基于朴素贝叶斯模型的中文关键词提取算法研究

程岚岚;何丕廉;孙越恒

计算机应用 2005, 25 (12): 2780-2782.

摘要（2203）

PDF （526KB）（1664）

提出了一种基于朴素贝叶斯模型的中文关键词提取算法。该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数，然后以之为基础，在测试过程完成关键词提取。实验表明，相对于传统的if*idf方法，该算法可从小规模的文档集中提取出更为准确的关键词，而且可灵活地增加表征词语重要性的特征项，因而具有更好的可扩展性。

相关文章 | 多维度评价

Select

5. 基于KMeans的文本层次聚类算法研究

尉景辉;何丕廉;孙越恒

计算机应用 2005, 25 (10): 2323-2324.

摘要（1727）

PDF （378KB）（1132）

提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和KMeans算法的特点，减少凝聚层次法在凝聚过程中的错误，提高了聚类质量。实验结果表明，该算法的聚类质量优于层次聚类法。

相关文章 | 多维度评价